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摘要 :【 目的 ] 文 章 比 较 多 个 基于 深度 神经 网 络 的 中 文 新 闻 文 本 分 类 模型 , 旨 在 找到 准确 度 较 高 的 方法 用 以 实际 工作 ， 
为 中 文 新 闻 文 本 分 类 提供 更 加 高 效 的 方法 。【 方法 】 对 文本 分 类 技术 和 中 文 新 闻 分 类 进行 了 梳理 和 归纳 ， 对 中 文 
新 闻 文 本 的 特征 和 预 处 理 进 行 了 阐述 , 详细 介绍 FastText 算法 、Bert 分 类 算法 、TextCNN 算法 和 TextRNN 算法 。[ 结 
果 】 四 种 深度 神经 网 络 算法 均 可 以 应 用 于 中 文 新 闻 文本 分 类 ， 可 以 有 效 处 理 信息 素 乱 问题 以 及 快速 准确 进行 分 类 。 
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【 结论 ] 通过 对 四 种 深度 神经 网 络 算法 进行 试验 和 效果 对 比 ， 发 现 FastText 模型 在 实际 工作 中 的 文本 分 类 效果 最 
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党 


所 
导语 元 素 为 0/1， 表 示 该 文本 是 否 包含 对 应 的 词 。 特 性 权重 


随 着 信息 时 代 的 高 速 发 展 ， 网 络 信息 呈现 爆炸 式 
增长 。 新 浪 、 今 日 头条 等 一 些 主 流 新 闻 网 站 ， 每 天 提 
供 数 以 百 万 计 的 新 闻 数 据 ， 然 而 这 些 爆 炸 式 增长 的 数 


计算 一 般 有 布尔 权重 、TFIDF 型 权重 ,以 及 基于 信 概 
念 权 重 等 几 种 方式 。 向 量 空间 模型 指 以 词 袋 模型 为 基 
础 ， 通 过 特征 选择 来 降低 模型 维度 ， 并 且 利用 特征 权 


据 给 网 站 带 来 了 巨大 的 挑战 。 新 闻 文本 分 类 可 以 有 效 
地 对 文本 进行 快速 准确 分 类 ， 提 高 网 站 的 工作 效率 ， 
成 为 近 些 年 来 的 研究 热点 。 新 闻 文 本 分 类 属于 文本 分 
类 的 一 个 子 任务 。 文 本 分 类 广泛 应 用 于 各 个 领域 ， 如 
网 页 分 类 、 微 博 情感 分 析 、 用 户 评论 挖掘 等 ， 是 自然 
语言 处 理 中 使 用 率 最 广泛 的 技术 之 一 。 文 本 分 类 最 重 
要 的 作用 是 可 以 有 效 处 理 信 息 亲 乱 问题 ,尤其 是 对 海 
量 信 息 而 言 ， 更 能 够 帮助 用 户 快速 、 高 效 准确 地 定位 
所 需 信息 ， 从 而 更 加 高 效 地 分 析 数 据 。 站 

本 文 对 新 闻 文 本 分 类 技术 进行 探究 和 阐述 ， 主 要 
包括 分 类 特点 等 ， 并 通过 实验 指出 各 个 算法 的 优 劣 所 
在 ， 预 测 未 来 新 闻 分 类 的 发 展 趋势 。 
1. 相关 研究 
1.1 中 文 新 闻 分 类 概述 

中 文 文本 是 一 种 无 法 被 计算 机 处 理 的 非 结构 化 数 
据 ， 要 转化 为 结构 化 数据 。 结 构 化 数据 的 过 程 首先 要 
进行 数据 预 处 理 ， 然 后 用 一 些 特征 提取 的 方法 就 可 以 
使 用 ,中 特征 提取 可 以 概括 为 以 下 三 类 :( 1 ) 词 袋 模型 。 
(2 ) 特性 权重 计算 。 (3 ) 向 量 空间 模型 。 词 袋 模型 
忽略 词 序 和 语法 ， 将 文本 仅仅 看 作 是 一 个 词 集 合 。 
若 词 集合 共有 NT 个 词 , 每 个 文本 表示 为 一 个 N 维 向 量 ， 


重 来 进行 二 次 计算 。 中 通过 上 述 方法 ， 可 以 将 非 结 构 
化 的 文本 转化 为 结构 化 的 数组 ， 从 而 进行 文本 分 类 。 

基于 传统 的 机 器 学 习 方法 ， 主 要 可 以 概括 为 特征 
工程 + 浅 层 分 类 模型 。 基 于 机 需 学 习 分 类 方法 中 ,会 
将 数据 集 按照 一 定 比 例 分 为 训练 集 和 测试 集 ， 然 后 通 
过 不 断 训练 调整 分 类 模型 的 参数 来 达到 更 高 的 准确 率 ， 
再 利用 测试 集 对 该 分 类 模型 的 分 类 效果 进行 评估 。 站 
在 分 类 过 程 中 ， 可 以 利用 相似 语 料 对 提取 出 的 文本 信 
息 进行 扩展 ,进而 得 到 特征 向 量 ,或 者 利用 支持 向 量 机 ， 
以 及 信息 增益 的 计算 方式 来 选择 特征 ， 提 高 分 类 准确 
率 。 此 外 ， 还 能 够 对 词 向 量 进行 加 权 处 理 ， 这 样 能 更 
加 精准 区 分 不 同 词 条 的 重要 程度 ， 提 高 分 类 文本 的 准 
确 率 和 效率 。 由 于 不 同 的 任务 对 特征 的 要 求 不 一 样 ， 
所 以 具体 问题 需要 具体 分 析 。 其 中 最 主要 涉及 的 技术 
为 构建 分 类 器 ， 这 是 一 种 基于 统计 分 类 的 方法 ， 包 括 
SVM 和 朴素 贝 叶 斯 分 类 算法 等 。™ 

基于 深度 学 习 的 文本 分 类 方法 ， 利 用 CNN/RNN 
等 网 络 结构 自动 获取 特征 表达 ， 然 后 进行 分 类 ， 从 而 
端 到 端的 解决 问题 。 基 于 深度 学 习 分 类 方法 中 ， 由 于 
计算 机 性 能 不 断 提 升 ， 使 得 图 像 识 别 、 自 然 语言 处 理 
等 领域 得 到 了 快速 发 展 。 这 种 算法 模拟 了 人 的 大 脑 中 
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神经 元 的 连接 与 计算 ， 在 其 神经 网 络 中 ， 一 般 包含 输 
入 层 、 隐 茂 层 和 输出 层 。 层 与 层 之 间 通 过 反 疝 传播 算 
法 等 对 数据 进行 训练 和 计算 ， 得 到 相应 的 训练 模型 。 
深度 学 习 的 方式 ， 往 往 也 意味 着 其 隐藏 层 较 多 ， 每 层 
负责 学 习 的 特征 有 所 区 别 ， 最 终 将 这 些 特征 汇总 在 一 
起 , 完成 更 加 精准 的 学 习 任务 .到 在 对 文本 分 类 过 程 中 ， 
可 以 从 用 户 特 征 信 息 、 文 本 主题 信息 ， 以 及 评论 关键 
词 等 角度 出 发 ， 提 取 结 构 化 文本 中 的 特征 信息 ， 这 样 
能 够 取得 更 好 的 分 类 效果 。 
2. 中 文 新 闻 文 本 分 类 研究 
2.1 中 文 新 闻 文 本 特征 

从 文本 分 类 的 角度 分 析 ， 中 文 新 闻 具 有 以 下 两 个 
特征 : (1 ) 新 闻 需 要 文本 分 类 。 随 着 信息 时 代数 据 量 
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到 短文 本 ， 还 需要 剔除 一 些 表 情 符号 、 转 发 关系 等 ， 仅 
保留 纯 文 本 用 于 后 续 分 析 和 处 理 。 在 降 噪 过 程 中 可 能 
及 特征 抽取 或 特征 降 维 这 一 操作 ， 其 可 以 有 效 降 低 算法 
计算 的 开销 、 去 除 噪声 ， 能 够 提升 模型 的 训练 速度 。 
2.2.3 词性 标注 

降 品 完成 后 ， 需 要 对 中 文 新 闻 中 的 词语 进行 词性 
标注， 包括 名 词 、 动 词 、 形 容 词 、 副 词 等 。 词 性 标注 
的 作用 主要 体现 在 后 续 对 文本 进行 识别 和 分 类 的 过 程 
中 ， 经 过 词性 标注 后 ， 处 理 效率 能 够 大 大 提升 。 
2.2.4 停 用 词 或 无 意义 词 过 滤 

第 一 种 方法 是 根据 已 制定 的 停 用 词 表 进行 处 理 ， 
停 用 词 表 中 一 般 包含 语气 词 、 标 点 符号 等 ， 在 对 新 闻 
言 息 分 词 去 品 后 ， 对 其 进行 遍历 ， 遇 到 与 停 用 词 表 中 


爆发 式 增长 ， 新 闻 也 呈现 指数 型 增长 ， 如 何 从 这 些 海 
量 的 数据 当中 获取 需要 的 新 闻 成 为 一 个 热点 问题 。( 2 ) 
新 闻 分 类 具有 可 行 性 。 由 于 新 闻 数据 的 公开 性 ， 网 络 
上 充斥 着 大 量 的 训练 和 测试 数据 。 与 此 同时 ， 随 着 分 
类 算法 快速 发 展 ， 分 类 性 能 也 越 来 越 高 。 
2.2 中 文 新 闻 文 本 预 处 理 

中 文 新 闻 的 文本 预 处 理 主要 是 针对 一 些 无 实际 意 
义 的 词 进行 识别 和 剔除 ， 例 如 大 量 的 停 用 词 或 噪声 等 ， 
从 而 能 够 降低 其 对 预 处 理 的 影响 程度 。 文本 预 处 理 的 
过 程 主要 包括 : 分 词 、 降 噪 、 词 性 标注 、 吻 除 停 用 词 等 。 
2.2.1 分 词 

在 中 文 新 闻 分 词 过 程 中 ,没有 类 似 英 文中 间 空 格 
的 断 开 分 词 特征 ,因此 就 需要 对 其 进行 更 多 处 理 , 例 如 ， 
使 用 向 前 向 后 最 大 匹配 算法 等 ， 可 以 使 用 基于 字典 或 
者 基于 统计 的 方法 进行 分 词 。 中 文 分 词 主要 是 解决 中 
文 文本 中 缺少 形式 上 的 分 隔 符 这 一 难题 ， 中 文 分 词 所 
使 用 的 技术 主要 有 以 下 几 种: 第 一 ， 基 于 字符 串 匹 配 
技术 ， 这 种 方法 的 关键 是 必须 建立 统一 的 词典 表 ， 当 
句子 开始 进行 分 词 时 ， 先 将 句子 进行 拆 分 ， 拆 分 后 再 
和 之 前 建立 的 词典 表 进 行 匹配 对 比 。 第 二 ， 基 于 理解 
的 分 词 方 法 ， 这 种 方法 是 让 计算 机 通过 神经 网 络 算法 
去 模拟 人 对 句子 进行 理解 和 表达 ， 进 而 可 以 识别 中 文 
词语 , 但 因 中 文 词语 的 语义 较 广 , 因此 难度 较 大 。 第 三 ， 
基于 统计 的 分 词 技术 ， 这 种 方法 的 最 基本 思维 就 是 利 
用 了 统计 学 和 概率 等 ， 认 为 分 词 是 一 个 概率 最 大 化 问 
题 ， 基 于 所 构建 的 语料库 ， 统 计 相 邻 的 字 组 成 的 词语 
出 现 的 概率 ， 按 照 概率 值 进行 分 词 。 
2.2.2 降 品 

对 中 文 新 闻 信息 的 降 品 ， 主 要 是 去 除 网 页 上 杂乱 的 
文字 和 图 片 ， 只 保留 经 过 工整 排版 的 正文 部 分 。 如 果 遇 


相同 词语 时 ， 将 其 和 吻 除 。 这 种 方法 可 控 性 较 好 ， 效 率 
较 高 ， 能 够 随时 对 停 用 词 表 进行 修改 。 第 二 种 方法 是 
计算 语料库 中 词语 出 现 的 频率 ， 然 后 选择 出 现 频 率 较 
低 或 次 数 较 少 的 词语 进行 剔除 。 但 这 种 方法 计算 量 较 
大 ， 会 消耗 较 多 资源 ， 有 时 还 可 能 将 某 个 出 现 频率 较 
低 但 影响 较 大 的 词语 误 删除 。 
2.3 中 文 新 闻 文 本 分 类 的 主要 模型 方法 

文本 分 类 是 根据 文本 语义 内 容 来 对 其 进行 归 类 的 
一 个 过 程 ， 文 本 数据 集合 与 类 别 集合 之 间 可 以 用 3-1 
函数 表示 : 


了 ， if diE€cd 
F, if di gc 


(= ol -| | 2) 


基于 上 文 提 到 的 新 闻 特征 ， 将 文本 分 类 应 用 到 新 
闻 领 域 有 重要 实际 意义 。 新 闻 文 本 分 类 具有 以 下 三 个 
寺 点 中，( 1 ) 文本 分 析 要 考虑 标题 的 重要 性 : 新 闻 标 
题 是 对 一 篇 文章 的 高 度 概括 ， 它 对 新 闻 的 分 类 有 很 大 
的 辅助 作用 ; (2 ) 文本 表示 要 考虑 新 闻 特 征 : 充分 分 
析 新 闻 文 本 的 特性 ， 进 而 优化 文本 表示 方法 ， 有 助 于 
提高 网 络 新 闻 的 分 类 效果 (3 ) 分 类 标准 偏向 主题 
而 非 学 科 。 因 此 ， 本 研究 针对 实际 工作 中 遇 到 的 新 闻 
数据 ， 基 于 深度 学 习 的 分 类 算法 ， 采 用 了 FastText、 
TextCNN 、BERT、TextRNN 等 模型 进行 计算 和 训练 。 
在 训练 过 程 中 要 注意 对 数据 集 进行 分 类 ， 预 设 的 判断 
条 件 要 尽 可 能 科学 ,， 例 如， 考虑 用 梯度 下 降 的 反 向 传 
播 算法 来 更 新 权 值 ， 从 而 使 得 准确 率 逐 步 提 高 ， 达 到 
更 好 的 训练 效果 。 
2.3.1 FastText 模型 

FastText 模 型 主要 包括 输入 层 . 隐 含 层 和 输出 层 ( 如 
图 1) ,与 大 型 神经 网 络 结构 相 比 其 较为 简单 ， 运 行 
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效率 较 高 ， 它 在 保证 分 类 准确 率 的 同时 ， 还 能 够 进 一 
步 提升 训练 速度 。 在 输入 层 中 ， 将 文本 当 作 一 个 由 
词 构成 的 集合 ， 生 成 表征 文本 的 向 量 ， 在 此 过 程 中 的 
关键 操作 为 对 文本 中 出 现 的 词 实施 共 加 平均 操作 ,最 
后 利用 该 向 量 完 成 多 分 类 任务 。 此 算法 的 优点 还 体现 
在 可 以 无 须 进 行 预 训练 步 又 ,其 可 以 自发 训练 词 向 量 ， 
将 单词 序列 作为 输入 ， 并 且 使 用 层次 softmax 函数 对 分 
类 进行 加 速 ， 以 及 预测 这 些 类 别 的 概率 分 布 。 这 种 以 
霍 夫 曼 编码 树 形 式 来 建立 层次 的 方法 ， 大 大 降低 了 计 
算 复 杂 度 。 


输出 层 


graml gran? grTanN-1 


图 1 FastText 模型 结构 


gramN 


2.3.2 TextCNN 模型 

选择 合适 的 中 文 文本 分 类 算法 是 中 文 文本 分 类 的 
核心 ， 这 需要 对 每 种 算法 有 一 定 程度 的 了 解 ， 同 时 要 
对 新 闻 文 本 分 类 任务 有 清晰 的 认 知 。 使 用 TextCNN 处 
理 文本 并 进行 分 类 ， 就 必须 对 信息 进行 数据 预 处 理 操 
作 , 以 便 后 期 达到 更 好 的 分 析 效 果 , 具体 包括 向 量化 、 
词 向 量 初始 化 等 。 在 文本 分 类 中 ，TextCNN 模型 应 用 
最 为 广泛 ， 尤 其 在 工业 领域 应 用 更 为 成 熟 ， 已 经 取得 
了 较为 优异 的 输出 效果 ， 其 网 络 结构 较为 简单 ， 因 此 
模型 可 以 使 用 较 少 的 参数 进行 训练 ， 有 效 节 约 计算 开 
支 ， 提高 了 训练 速度 。CNN 主要 运用 在 图 片 分 类 领域 ， 
而 TextCNN 则 是 其 一 种 变形 ， 能 够 用 于 文本 分 类 ， 结 
构 示 意图 如 图 2 所 示 ， 词 向 量 经 过 不 同 卷 积 核 运算 后 
得 到 对 应 的 特征 向 量 , 再 经 过 池 化 层 后 得 到 全 连接 层 ， 
此 时 映射 运算 就 能 够 将 高 维 数据 转换 为 低 维 数据 。"™ 
TextCNN 的 可 解释 性 较 弱 ， 需 要 人 工 对 其 进行 指导 干 
预 ， 对 卷 积 核 的 尺寸 进行 设 定 ， 并 且 需 要 对 模型 进行 
手工 调 优 。TextCNN 模型 通过 利用 一 个 上 维 向 量 来 代 
表 某 句子 中 的 一 个 单词 ， 这 些 单词 会 做 成 一 个 词典 以 
供 文本 输入 后 使 用 。 文 本 输入 后 会 将 每 个 单词 对 应 一 
个 一 维 向 量 ， 最 终 将 一 整个 句子 转换 成 一 个 二 维 矩 阵 
后 卷 积 ,而 此 时 卷 积 核 的 列 维度 就 与 输入 的 维度 相同 ， 
并 且 卷 积 核 的 大 小 可 以 根据 实际 情况 进行 调整 ， 滑 动 
步 长 的 范围 往往 控制 在 2 ~ 5 个 单词 之 间 。 
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向 量 卷 积 特征 图 池 化 层 全 连接 层 
图 2 ”TextCNN 结构 示意 图 

从 图 3 TextCNN 算法 流程 图 中 能 够 看 出 ， 在 输入 
文本 信息 后 ， 开 始 对 文本 进行 数据 预 处 理 ， 此 时 使 用 
到 词 艇 入 、 词 向 量 初始 化 、 向 量 维度 变换 等 方法 。 数 
据 预 处 理 完毕 后 , 使 用 Text CNN 进行 训练 , 通过 卷 积 、 
最 大 池 化 、Softmax 方式 输出 分 类 结果 。 最 后 对 输出 的 
损失 值 进行 判断 ， 如 果 超 过 了 设 定 的 浆 值 ， 则 以 梯度 
下 降 的 反 向 传播 算法 进行 循环 更 新 ， 直 到 小 于 或 等 于 
设 定 的 国 值 则 训练 结束 。 常 用 的 梯度 下 降 方 法 为 批量 
梯度 下 降 法 , 即 在 每 一 次 迭代 过 程 中 都 需要 更 新 梯度 。 
梯度 下 降 的 优点 在 于 其 利用 和 矩阵 计算 所 有 样本 数据 ， 
可 对 数据 进行 并 行 处 理 ; 缺点 在 于 当 数 据 量 较 大 时 ， 
每 次 计算 所 有 数据 会 使 得 训练 效率 有 所 降低 。 


词 向 量 初始 化 下 了 
CX 


向 量 维度 变换 | 


最 大 池 化 


输出 ， 计 算 


反 向 传播 模 失 值 loss 


Loss<= 
设 定 阔 值 ? 


图 3 TextCNN 算法 流程 图 

2.3.3 Bert 模型 

Bert 最 早 是 谷歌 团队 发 明 的 一 种 语言 模型 ， 它 由 
多 个 Transformer 的 Encoder 共 加 而 成 ， 模 型 结构 如 图 
4 所 示 。Transformer 结构 是 采用 一 种 注意 力 机 制 ， 在 
读 取 数据 信息 时 会 一 次 性 读 取 文 本 序列 ， 不 仅 能 够 提 
高 读 取 效 率 ， 还 能 够 更 方便 的 基于 单词 的 上 下 文 进 行 
语义 学 习 ， 增 强 了 对 上 下 文 语 义 的 理解 ， 也 与 中 文 语 
言 表 述 更 接近 。 这 种 方法 对 新 闻 文 本 分 类 而 言 ， 可 以 
解决 数据 稀 朴 、 上 下 文 依赖 性 过 高 等 难点 ， 使 得 文本 
分 类 性 能 更 加 高 效 ， 满 足 更 加 精准 性 的 需求 。 
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图 4 Bert 语 言 模型 结构 图 


该 模型 的 输入 层 主要 是 利用 Bert 模型 算法 进行 
预 训练 ， 进 而 能 够 以 文本 语义 向 量 表示 。 在 句子 开 
头 和 结尾 处 需要 进行 标记 ， 然 后 对 读 取 到 的 数据 进行 
处 理 ， 采 用 映射 索引 的 方法 对 文字 和 标签 进行 切 分 ， 
然后 将 每 一 个 词 甬 入 转换 为 一 维 语义 向 量 。 再 通过 
Transformer Encoder 堆 徐 ， 完 成 双向 语义 特征 学 习 及 问 
量 表示 。 在 特征 抽取 层 ， 要 通过 Bert 模型 进行 进一步 
微调 ， 结 合 注意 力 机 制 对 文本 特征 进行 提取 ， 通 过 这 
种 机 制 能 够 更 加 聚焦 于 数据 内 部 的 相关 性 ， 利 用 词 向 
量 加权 的 方式 提高 模型 运算 效率 。M"Bert 算法 模型 就 
是 由 多 个 Transformer 的 Encoder 部 分 县 加 的 深层 次 网 
络 ， 该 方式 一 次 性 读 取 整 个 文本 序列 ， 因 此 可 以 用 于 
对 某 个 单词 上 下 文 语 义 进 行 学 习 ， 增 强 了 对 上 下 文 语 
义学 习 的 理解 能 力 ,在 一 定 程度 上 更 加 接近 人 类 语言 。 
同时 还 会 对 文本 进行 特征 抽取 ， 示 意图 如 图 5， 具 有 
全 局 时 序 最 优等 特征 ， 可 以 提取 文本 信息 中 上 下 文 语 
义 信息 ， 具 体 实现 过 程 中 需要 利用 Tensorflow 库 函 数 
来 搭建 双向 网 络 操作 函数 。 在 输出 层 ， 主 要 是 对 每 个 
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该 递归 神经 网 络 模型 又 名 文本 循环 神经 网 络 ， 利 
用 该 模型 在 中 文 新 闻 文 本 分 类 时 ， 能 够 捕获 更 长 的 序 
列 信息 ， 它 避免 了 CNN 算法 中 不 能 延展 序列 长 度 的 缺 
陷 ， 并 且 在 进行 参数 调节 时 较为 简单 ， 可 以 更 加 准确 
地 表达 上 下 文 信息 。 在 RNN 算法 中 ， 输 出 的 结果 并 不 
仅仅 是 由 和 矩阵 和 卷 积 计算 得 到 的 ， 其 会 根据 计算 得 出 
一 个 State， 并 且 会 持续 影响 后 续 的 计算 ， 这 样 经 过 N 
个 样本 的 输出 ， 就 能 够 使 得 结果 具备 一 定 的 序 特 征 。 
这 就 使 得 输入 数据 的 状态 可 以 在 自身 神经 网 络 中 进行 
循环 处 理 ， 并 且 产 生 时 间 关 联 。TextRNN 模型 的 特别 
之 处 在 于 其 同一 隐藏 层 的 节点 之 间 是 存在 连接 的 ， 并 
且 将 时 间 关 系 作为 影响 数据 间 关 系 的 变量 ， 它 不 仅 考 
虑 当前 的 输入 ， 还 赋予 网 络 对 过 去 的 记忆 。 在 其 隐藏 
层 中 ， 数 据 可 能 会 从 第 一 个 隐藏 层 中 输出 后 ， 再 加 上 
一 定 的 权重 进入 第 二 个 隐藏 情 ， 也 就 是 说 在 向 下 一 层 
输入 时 ， 会 将 某 一 时 刻 的 隐藏 状态 神经 元 和 这 一 时 刻 
的 文本 特征 一 起 输入 。 最 后 经 过 的 不 断 循环 和 递归 ， 
再 反 向 调整 各 层 的 连接 权重 ， 得 到 最 优化 参数 。 但 正 
是 由 于 这 种 结构 ， 使 得 TextRNN 后 一 个 时 刻 的 输出 会 
依赖 前 一 个 时 刻 的 输出 ， 因 此 无 法 并 行 处 理 ， 降 低 了 
训练 效率 。 

从 图 6 TextRNN 网 络 结构 中 可 以 看 出 ， 数 据 按时 
间 序 列 展开 后 ， 能 够 得 到 一 个 了 维 向 量 ，U 为 输入 层 
到 隐藏 层 的 权重 ， 权 重 越 大 则 代表 输入 信息 量 越 多 。 
横向 W 则 代表 前 一 个 隐藏 层 到 后 一 个 隐藏 层 的 权重 ， 
V 则 代表 从 隐藏 层 到 输出 层 的 权重 。 要 注意 的 是 ， 
RNN 在 处 理 序列 信息 时 , 有 时 会 偏向 最 后 输入 的 信息 ， 
这 就 可 能 导致 早期 信息 丢失 的 问题 ， 因 此 在 初始 化 权 
重 时 , 要 尽 可 能 避免 极 大 或 极 小 值 , 并 且 加 入 LSTM( 长 


样本 所 属 的 标签 做 概率 预测 ， 对 文本 信息 能 够 进行 高 
效 提 取 ， 然 后 通过 全 连接 的 方式 提高 分 词 准 确 率 。 这 
种 全 连接 方式 利用 了 激活 函数 和 数据 线性 变换 的 方式 
来 提高 计算 效率 ， 并 且 采 用 梯度 下 降 算法 来 进行 参数 
学 习 和 Dropout 策略 防止 模型 过 拟 合 问题 。 
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2.4 中 文 新 闻 文 本 分 类 实验 
2.4.1 数据 集 介 绍 

笔者 提供 了 一 个 新 闻 和 公司 相关 的 数据 集 ， 数 据 
集 是 通过 对 某 网 的 金融 数据 进行 筛选 过 滤 生 成 ， 包 
含 40 万 篇 新 闻 ， 都 是 经 过 预 处 理 过 后 的 文本 ， 均 为 
UTF-8 纯 文本 。 在 原始 网 站 的 基础 之 上 ， 将 数据 集 划 
分 出 1000 个 类 ， 每 一 个 类 代表 一 家 公司 。 将 用 一 些 主 
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流 的 分 类 算法 测试 模型 的 性 能 。 
2.4.2 实验 结果 

实验 需要 对 测试 数据 集 分 类 结果 的 准确 性 进行 评 
价 ， 硅 结果 不 在 合理 范围 内 ， 则 需要 返回 特征 选择 阶 
段 再 次 完成 特征 选取 ， 重复 这 一 步骤 直到 结果 处 于 合 
理 范围 内 。 其 分 类 标准 主要 包括 准确 率 和 召回 率 ， 准 
确 率 可 以 表示 文本 分 类 模型 的 准确 程度 ， 但 仅 准确 率 
高 而 召回 率 很 低 ， 则 代表 没有 把 本 应 预测 出 来 的 标签 
类 别 预测 出 来 ， 尤 其 是 对 于 非 均衡 样本 ， 有 了 时 会 把 小 
类 样本 预测 成 为 大 类 样本 ; 或 者 某 个 多 标签 分 类 模型 ， 
可 能 会 出 现 特征 和 模型 过 拟 合 的 现象 ， 这 也 会 导致 召 
回 率 较 低 ， 因 此 在 实验 时 要 加 以 注意 。 

笔者 分 别 使 用 FastText 算法 、Bert 分 类 算法 、 
TextCNN 算法 、TextRNN 算法 来 分 别 在 数据 集 上 进行 
测试 ,评估 标准 准确 率 和 召回 率 ,实验 结果 如 下 表 所 示 : 


分 类 算法 准确 率 (%) 召回 率 (%) 
FastText 88.5 88.5 
Bert 85 84 
TextCNN 87 88 
TextRNN 86.5 86 


同时 本 研究 还 在 THUCNews 上 测试 了 几 种 方法 的 
准确 度 和 召回 率 ， 实 验 结果 如 下 表 所 示 : 


分 类 算法 准确 率 (%) 召回 率 (%) 
FastText 86.5 86.5 
Bert 83.4 S22 
TextCNN 87.9 88.5 
TextRNN 86.7 86.5 
3. 总 结 


本 文 在 对 中 文 文本 分 类 进行 梳理 和 研究 的 基础 上 ， 
认为 以 下 几 个 方向 将 成 为 研究 的 热点 : (1) 基于 无 
监督 学 习 模 式 的 新 闻 文 本 分 类 : 网 络 上 充斥 着 大 量 无 
监督 的 数据 ， 如 何 利 用 好 这 些 数据 ， 将 成 为 一 个 热门 
研究 ; (2 ) 多 层次 新 闻 文 本 分 类 : 充分 利用 分 类 体 
系 的 层次 信息 ， 采 用 逐 层 分 类 思想 进行 多 层次 文本 分 
类 ， 能 有 效 地 降低 分 类 算法 的 复杂 度 ， 同 时 保证 分 类 
精度 ， 值 得 进一步 研究 。 (3 ) 跨 模 态 的 新 闻 文 本 分 
类 : 新 闻 文本 分 类 主要 考虑 文本 信息 ， 新 闻 中 一 些 其 
他 模 态 的 信息 被 忽略 ， 如 何 利用 这 些 信息 辅助 分 类 ， 
充分 融合 好 文本 信息 和 图 片 信息 ， 也 是 一 个 研究 热 
点 。 同 时 ， 本 研究 讨论 了 新 闻 文 本 分 类 等 相关 研究 ， 
分 别 介 绍 了 FastText 模型 、TextCNN 模型 、BERT 模型 
以 及 TextRNN 模型 。 经 过 实验 ，FastText 模型 在 实际 
工作 中 的 文本 分 类 效果 最 为 优异 ， 而 TextCNN 模型 在 
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THUCNews 上 的 文本 分 类 最 为 优异 。 印 


[1] 李 泽 鬼 ， 孙 堆 ， 陈 瑶 . 新 闻 媒体 领域 中 文 语义 分 析 技 术 智 
能 化 、 知 识 化 之 路 的 研究 与 探索 中. 中 国 传 媒 科技 ，2018 
(8 ) : 35—37. 

[2]LiZ, Shang W ，Yan M . News text classification model 
based on topic model[C]// IEEE/ACIS International 
Conference on Computer & Information Science. IEEE， 
2016. 

[3] 李 可 悦 ， 陈 轶 ， 牛 少 彰 . 基于 BERT 的 社交 电 商 文本 分 
类 算法 力 . 计算 机 科学 ，2021 (2 ) : 87-92. 

[和] 机 周涛， 孙 炜 . 基于 深度 学 习 的 文本 分 类 综述 四. 计算 机 
与 现代 化 ，2021 (7 ) : 29-37. 

[5] 谭 辛 .政策 解读 大 数据 分 析 应 用 的 实践 探究 四. 中 国 传媒 
科技 ，2019 (3 ) : 22-23. 

[6] 刘 萌 . 人 工 智能 技术 在 媒体 融合 中 的 运用 研究 由. 中 国 传 
媒 科 技 ，2021 (11) : 154-156 

[7] 李 泽 鬼 ， 孙 徘 ， 陈 表 . 新 闻 媒 体 领 域 中 文 语义 分 析 技 术 智 
能 化 、 知 识 化 之 路 的 研究 与 探索 中. 中 国 传媒 科技 ，2018 
(8 ) : 35—37. 

[8] 机 红 雨 ， 王 宇 涵 ， 从 日 睛 ， 林 岩 . 结合 自 注 意 力 机 制 的 
神经 网 络 文本 分 类 算法 研究 四. 计算 机 应 用 与 软件 ，2020 
(2 ) : 200-206. 

[9] 杨锐 ， 陈 伟 ， 何 涛 ， 张 敏 ， 李 黄 伶 ， 盘 芳 . 融合 主题 信 
息 的 卷 积 神 经 网 络 文本 分 类 方法 研究 中 . 现代 情报 ，2020 
(4) : 42-49. 

[10] 杜 思 佳 ， 于 海宁 ， 张 宏 痢 . 基于 深度 学 习 的 文本 分 类 研 
究 进展 中. 网 络 与 信息 安全 学 报 ，2020 (4) : 1-13. 
[11] 郝 超 ， 硝 杭 萍 ， 孙 狼 ， 张 超然 . 多 标签 文本 分 类 研究 进 

展 胃 . 计算 机 工程 与 应 用 ，2021 ( 10 ) : 48-56. 

[12] 王 迷 痢 . 基于 机 器 学 习 的 文本 分 类 研究 由. 科技 创新 与 

应 用 ，2021 (26) : 70=72. 


作者 简介 : 郑 创 伟 (1978- ), 男 , 广 东 汕头 , 高 级 工程 师 ， 
研究 方向 为 大 数据 、 人 工 智 能 ; 王 泳 (1977 一 ) ， 女 ， 湖 南 
邵阳 ， 中 级 工程 师 ， 研 究 方向 为 大 数据 ; 邢 谷 涛 (1984- ) ， 
男 ， 海 南 文昌 ， 中 级 工程 师 ， 研 究 方向 为 云 计算 ; 谢 志 成 
(1980- ) ， 男 ,广东 汕头 ， 中 级 工程 师 ， 研 究 方向 为 大 数据 、 
云 计 算 ; 陈 义 飞 (1981 一 ) ， 广 东 湛 江 ， 中 级 工程 师 ， 研 究 
方向 为 大 数据 。 


(责任 编辑 : 张 晓 婧 ) 


"Em 


